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JE 要 选择 性 分 析 和 报告 是 造成 心理 科学 研究 可 重复 性 危机 的 一 个 重要 因素 。 近 年 来 研究 者 提出 用 多 元 宇 
宙 样 分 析 的 方法 ， 宫 括 多 种 数据 分 析 策 略 ,， 减少 分 析 过 程 中 的 主观 选择 性 和 随意 性 ,并 进行 稳健 性 检验 以 提 


高 结果 的 可 靠 性 。 


以 手机 使 用 与 手机 压力 的 关系 为 例 ， 


介绍 该 方法 和 操作 步骤 。 该 方法 已 在 心理 学 和 认 知 神 


经 科学 等 领域 得 到 一 定 的 应 用 。 未 来 研究 应 继续 发 展 和 完善 该 方法 的 统计 推断 ,使 之 运用 到 更 多 的 数据 类 型 


和 更 广 的 研究 领域 中 。 
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科学 研究 的 可 重复 性 主要 有 两 层 含 义 : 一 是 
对 同一 个 数据 集 ， 由 不 同 的 研究 者 使 用 相似 的 方 
法 对 原 研 究 结论 进行 验证 (一 般 用 reproducibility 
表示 ); 二 是 不 同 研究 者 使 用 相似 的 方法 ， 收 集 新 
的 数据 检验 已 有 研究 结果 的 可 靠 性 (一 般 用 
replicability 表示 ) (Artner et al., 2020; Nosek et al., 
2022)。 一 直 以 来 ,心理 科学 研究 备 受 可 重复 性 危 
机 的 诉 病 , 引发 了 国内 外 心理 学 研究 者 的 广泛 关 
注 (Aarts et al., 2015; Nosek et al., 2022; Pashler & 
Wagenmakers, 2012; Tackett et al., 2019; R, 
2016; WEI 等 , 2016; 骆 大 和 森 , 2017)。 开 放 科 学 
PE (Open science collaboration, OSC)fE Science 
期 刊 发 表 了 一 篇 探讨 心理 学 研究 可 重复 性 的 文章 ， 
发 现 大 部 分 心理 学 研究 结果 不 可 重复 ， 并 提出 最 
关键 的 原因 是 “可 疑 操作 ”， 即 选择 性 分 析 .选择 性 
呈现 研究 结果 ， 或 者 不 充分 呈现 研究 结果 (Aarts 
et al., 2015)。 换 言 之 ， 对 于 任何 数据 集 ， 研 究 者 都 
有 大 量 可 操作 的 空间 ,可 以 自由 、 自 主 地 选择 只 
时 现 某 一 种 分 析 结 果 ， 这 种 单一 结果 的 非 代表 性 
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加 剧 了 可 重复 性 危机 (Aarts et al., 2015; Simonsohn 
et al., 2020; Steegen et al., 2016). 内 研究 者 通过 
分 析 OSC 的 研究 材料 ,进一步 区 分 可 重复 危机 F 
生 的 两 大 源头 (传统 统计 学 体系 的 局 限 和 人 为 偏 
差 ) 的 差异 ,发 现 原 研究 的 阳性 结果 中 , 真 阳性 结 
果 不 到 三 分 之 一 ,相当 部 分 的 结果 , 极 有 可 能 是 
人 为 偏差 造成 的 ( 骆 大 森 , 2017), 例如 p 值 操 纵 
(P-hacking)、 人 研究 者 自由 度 (researcher degree of 
freedom) 、“ 小 径 分 叉 的 花 
paths) (Gelman & Loken, 2014; Simmons et al., 
2011; 胡 传 鹏 等 , 2016)。 这 种 人 为 偏差 主要 体现 
在 研究 者 设计 、 分 析 、 发 表 过 程 中 对 变量 选择 、 
分 析 策 略 的 主观 操作 上 。 而 过 于 追求 阳性 或 显著 
性 的 结果 是 导致 研究 者 选择 分 析 变 量 、 选 择 性 报 
告 结 果 的 重要 原因 。 因 此 ,心理 科学 研究 中 常常 
出 现 两 种 现象 一 一 过 度 追 求 统计 显著 性 或 夸大 化 
效应 (inflated effects) 、 抵 制 或 忽略 小 效应 (G6tz 
et al., 2020; Ioannidis, 2008; 胡 传 鹏 等 , 2016)。 社 
会 科学 的 研究 更 看 好 有 利 或 者 预期 的 大 效 上 
(Fanelli et al., 2017)， 这 种 偏向 通常 会 暗示 或 鼓 
研究 者 报告 夸大 化 的 效应 ; 同时 , 研究 者 期 待 好 
的 结果 ,认为 小 的 效应 是 不 正常 的 (G6tz et al., 
2020; E 等 , 2021)。 但 是 ,小 效应 或 不 显著 的 
效应 也 有 其 存在 的 意义 ,不 应 该 忽视 和 回避 (例如 
基因 研究 中 通常 只 有 小 的 效应 ; Gotz et al., 2022)。 
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心理 学 的 现象 很 复杂 ,并 不 只 是 由 单个 因素 决定 
的 , 忽视 小 效应 可 能 意味 着 忽视 真 效 应 ,容易 造 
成 错误 的 认识 ,阻碍 理论 的 发 展 (G6tz et al., 2022; 
Prentice & Miller, 1992)。 

近年 来 ,研究 者 在 应 对 心理 学 可 重复 性 危机 
中 进行 了 许多 探索 ,提出 了 许多 的 尝试 性 解决 方 
式 (Klein et al., 2018; Laraway et al., 2019; 刘 佳 
等 ,2018; 胡 传 鹏 等 , 2016)。 例 如 研究 预 注册 、 
严格 执行 预 注册 计划 、 完 整 分 析 数 据 、 专 业 期 刊 
共同 努力 (如 完善 投稿 要 求 、 重 视 研 究 设计 ) 等 。 由 
于 研究 者 主观 偏差 对 效应 量 有 着 重要 影响 ( 骆 大 
森 ,，2017)， 如 何 解 决 研究 者 在 研究 中 选择 性 分 析 
和 选择 性 报告 的 问题 ， 对 提升 心理 学 研究 的 可 重 
复 性 具有 重要 意义 (Simonsohn et al., 2020; Steegen 
et al., 2016)。 所 以 针对 选择 性 报告 和 选择 性 分 析 
这 一 问题 ， 研 究 者 提出 检验 结果 报告 的 稳健 性 ， 
即使 用 不 同 的 分 析 策 略 ， 对 已 有 研究 结果 的 效应 
进行 可 靠 性 检验 。 基 于 此 ,研究 者 提出 了 效应 颤 
动 分 析 (Vibration of effects, VoF) (Patel et al., 


2015)、 多 模型 分 析 (Multimodel analysis) (Young & 
Holsteen, 2017), 多 元 宇宙 分 析 (Multiverse analysis) 
(多 元 宇宙 样 分 析 的 一 种 ) (Steegen et al., 2016)、 规 
范 曲 线 分 析 (Specification curve analysis) (Simonsohn 
et al., 2015, 2020) 等 分 析 方法 。 这 些 方法 的 核心 共 
同 点 在 于 : 不 再 选择 性 呈现 分 析 结果 ， 而 是 报告 
数据 集中 所 有 可 能 的 分 析 结 果 ,， 并 进行 稳健 性 检 
验 , 综合 确定 变量 间 关 系 和 效应 大 小 。 图 1 展示 
了 这 类 方法 的 特征 ， 对 于 某 一 数据 集 的 变量 ,不 
同 研究 者 可 以 选择 不 同 分 析 策 略 组 合 , 产生 不 同 
的 分 析 结 果 。 假 设 研究 者 想 要 探讨 自 变量 与 因 变 
量 的 关系 ,在 模型 和 数据 集 都 一 样 的 情况 下 ， 研 
RH A 可 以 选择 报告 一 种 分 析 策 略 的 结果 (图 中 
线条 被 椭圆 标记 的 组 合 ), 研究 者 B 则 选择 报告 另 
一 种 分 析 策 略 的 结果 (图 中 线条 被 方形 标记 的 组 
合 ), 通常 不 同 的 组 合 结 果 不 同 , 这样 就 使 得 研究 
结论 可 能 存在 不 可 重复 性 。 而 多 元 宇宙 样 分 析 则 
强调 报告 图 中 所 有 分 析 策 略 的 结果 ,并 进行 效应 
稳健 性 检验 。 


dt 


o u 


图 1 多 元 宇宙 样 分 析 的 分 析 策 略 组 合 树 状 图 
TE: 图 中 线条 代表 变量 操作 的 不 同 选择 , 被 椭圆 标记 的 线条 组 合 代表 研究 A 的 选择 , 被 方形 标记 的 线条 组 合 代表 研 
究 B 的 选择 。 模 型 指 探讨 变量 关系 时 采用 的 估计 方法 (如 线性 回归 或 logistic 回归 )。 
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本 研究 旨 在 结合 实例 介绍 多 元 宇宙 样 分 析 及 
其 在 心理 学 研究 中 的 应 用 ,并 对 其 优势 和 局 限 性 
进行 讨论 和 总 结 。 


2 多 元 宇宙 样 分 析 


如 前 文 所 述 ， 多 元 宇宙 样 分 析 指 代 一 组 有 着 
核心 共同 点 的 统计 分 析 方 法 。Patel 等 (2015) 第 一 
次 提出 相关 的 概念 一 一 效应 颤动 分 析 ， 即 描述 一 
个 给 定 的 效应 估计 在 多 种 不 同 的 模型 分 析 下 的 变 
化 程度 。 通 过 呈现 不 同 分 析 策 略 的 效应 和 显著 性 ， 
来 确定 变量 间 的 关系 是 否 稳定 (效应 变化 幅度 越 
大 越 不 稳定 )。Steegen 等 (2016) 提 出 了 多 元 宇宙 分 
析 ， 指 对 一 个 数据 集中 的 变量 进行 操纵 (例如 ,， 变 
量 如何 分 类 、 变 量 如 何 组 合 、 变 量 如 何 转变 、 数 
据 排除 的 标准 等 等 )， 每 次 操纵 将 获得 多 种 选择 ， 
这 些 不 同 的 选择 放 在 一 起 就 获得 不 同 的 组 合 
即 多 个 世界 或 宇宙 。Young 和 Holsteen (2017) 提 出 
了 多 模型 分 析 ， 指 通过 选择 协 变 量 、 改 变 函 数 形 
式 和 回归 模型 等 形成 大 量 不 同 的 分 析 策略 ， 同 时 
多 模型 分 析 呈 现 不 同 分 析 策 略 的 结果 以 检验 稳健 
TE. Young 和 Holsteen (2017) 将 不 同 的 分 析 策 略 命 
名 为 规范 (Specification)。Simonsohn 等 (2020) 在 前 
人 的 基础 上 提出 了 规范 曲线 分 析 , 指 的 是 将 所 有 
可 能 的 分 析 策 略 的 效应 结果 分 布 在 一 个 规范 曲线 
中 ,并 对 该 曲线 进行 统计 推断 ,检验 研究 所 关心 
效应 的 稳健 性 。 

总 之 , 这 些 相 关 分 析 方 法 都 具有 一 个 共同 特 
VE, 主张 报告 多 种 分 析 策 略 的 结果 ， 并 对 这 些 所 
有 可 能 的 结果 进行 稳健 性 检验 ,避免 选择 性 分 析 
和 报告 , 减少 研究 者 主观 偏差 的 影响 ,增加 结果 
的 可 靠 性 和 透明 性 ， 有 利于 解决 有 争议 的 话题 。 
因而 ,近年 来 的 一 些 研究 者 将 以 上 这 类 方法 统称 
为 “多 元 宇宙 样 分 析 (Multiverse-style analysis)" 
(Del Giudice & Gangestad, 2021; Rijnhart, Twisk 
et al.,，2021)。 本 研究 中 也 使 用 多 元 宇宙 样 分 析 这 


一 术语 。 
3 基本 步骤 和 实例 分 析 


以 往 研究 者 指出 ， 多 元 宇宙 样 分 析 主 要 分 为 
三 个 步骤 : (1) 确 定 所 有 分 析 策 略 的 全 和 集 ; (2) 对 所 
有 分 析 策 略 的 效应 进行 估计 和 描述 ; (3) 对 所 有 分 
析 策 略 进行 整体 上 的 统计 推 朵 (Patel et aL, 2015; 
Simonsohn et al., 2015, 2020; Steegen et al., 2016)。 


日 于 效应 颤动 分 析 、 多 模型 分 析 等 只 完成 了 前 两 
Ae, 而 Simonsohn 等 (2020) 提 出 的 规范 曲线 分 析 
时 括 了 所 有 步骤 ， 因 此， 本 文 主要 以 规范 曲线 分 
析 的 步 又 为 例 进行 介绍 。 

(1) 确 定 所 有 分 析 策 略 组 合 的 全 集 。 

列举 所 有 的 数据 分 析 策略 ， 并 生成 所 有 可 能 
的 分 析 策 略 组 合 ， 排 除 不 可 行 或 元 余 的 组 合 (Patel 
et al., 2015; Simonsohn et al., 2015, 2020; Steegen 
et al., 2016)。 通 常 可 以 对 数据 集 选 择 、 变 量 类 型 、 
变量 测量 方式 、 模 型 估计 选择 、 控 制 变 量 等 方面 
进行 不 同 的 操作 ， 并 将 这 些 操作 进行 组 合 ,， 形 成 
一 个 有 大 量 不 同 分 析 策 略 的 集合 (Lonsdorf et al., 
2022; Patel et al., 2015; Simonsohn et al., 2020; 
Steegen et al., 2016)。 

(2) 对 所 有 分 析 策 略 的 效应 进行 估计 和 描述 。 

呈现 所 有 合理 组 合 的 估计 结果 的 分 布 情况 ， 并 确 
定 哪些 分 析 策 略 是 最 重要 的 。 
(3) 统 计 推 断 。 共 同 考 虑 所 有 这 些 合理 的 组 合 
结果 与 零 假 设 有 多 不 一 致 。 早 期 多 元 宇宙 样 分 析 
的 研究 仅仅 完成 前 两 个 步 又 ,根据 显著 性 结果 的 
占 比 来 推论 研究 关心 的 效应 (例如 Steegen et al., 
2016)， 或 仅仅 依靠 所 有 估计 值 的 中 位 数 、 均 值 等 
进行 描述 性 说 明 (例如 Young & Holsteen, 2017), 
未 进行 统计 推断 。 

不 同 于 单个 分 析 模 型 ， 多 元 宇宙 样 分 析 中 不 
同 的 分 析 策 略 模型 是 相互 独立 的 。 要 构建 零 假 设 
分 布 ， 可 以 通过 在 空 值 下 重新 抽样 实现 ， 这 需要 
修改 观测 数据 以 保证 零 假 设 为 真 ， 然 后 随机 多 次 
抽取 (例如 500 次 ) 修 改 后 的 数据 样本 (Simonsohn 
et al., 2015, 2020)。 接着 计算 这 些 抽 取 的 样本 的 感 
兴趣 的 检验 统计 量 , 得 到 的 分 布 就 是 检验 统计 量 
在 零 假设 下 的 估计 分 布 (Simonsohn et al., 2015, 
2020)。 最 后 用 实际 估计 效应 与 零 分 布 情况 进行 比 
较 ， 检 验 零 假设 (在 y = F(x, z) 的 函数 中 ,x XJ y 没 
有 效应 。 其 中 ? 为 因 变 量 ,* 是 自 变 量 , z 为 混杂 变 
量 ) 是 否 为 真 (Simonsohn et al., 2015)。 研 究 者 认为 
实验 数据 和 非 实验 数据 来 源 于 两 种 不 同 的 情境 
由 于 非 实 验 数据 中 协 变量 与 预测 变量 更 可 能 存在 
相关 ， 所 以 实验 数据 在 零 假 设 情 况 下 的 抽样 比 非 
实验 数据 更 直观 (Simonsohn et al., 2015, 2020)。 为 
此 , 人 研究 者 使 用 置换 检验 和 bootstrap 方法 分 别 对 
两 种 数据 进行 统计 推断 (Simonsohn et al., 2015, 
2020)。 
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对 于 实验 性 数据 (如 实验 组 和 对 照 组 ), 使 用 
置换 检验 较为 简单 和 直观 (Simonsohn et al., 
2015)。 首 先 将 随机 分 配 的 变量 (例如 为 探讨 帜 风 和 名 
字 不 同 是 否 造成 不 同 影响 , 飓风 的 名 字 被 随机 分 
配 到 男性 化 和 女性 化 组 (Simonsohn et al., 2015)) 
进行 重新 打 乱 排序 。 打 乱 的 数据 集 保 留 原 始 数据 
集 的 所 有 其 他 特征 (如 共 线 性 、 偏 度 等 )， 此 时 打 乱 
数据 集 里 面 的 自 变 量 和 因 变 量 没有 关系 (此 时 零 
BENE) 然后 对 每 一 个 打 乱 数据 集 的 所 有 规范 
进行 估计 。 重复 这 个 步骤 若干 次 (例如 500 次 )， 就 
能 得 到 在 零 假设 情况 下 规范 曲线 的 分 布 (Simonsohn 
et al., 2020)。 

对 于 非 实 验 性 数据 , 在 回归 模型 中 主要 有 两 
种 修改 数据 的 方式 从 而 产生 零 假 设 分 布 。 一 种 是 
强制 为 零 然后 打 乱 残 差 数 据 集 ， 另 一 种 是 强制 为 
零 后 对 数据 集 进行 随机 抽样 。 研 究 者 认为 使 用 后 
者 更 为 合理 (具体 论证 见 Simonsohn et aL, 2015, 
2020)。 有 具体 来 讲 ， 对 每 一 个 组 合 的 观测 数据 进行 
模型 估计 ， 即 估计 y=a+ax+cz+e 的 参数 ap 和 
c 。 然 后 通过 创建 新 的 因 变 量 y 的 方式 将 数据 集 
强制 为 零 ， 这 个 7 此 时 减 去 了 >* 对 了 估计 效应 ( 即 
y 2y-hx, b Æ b 的 取样 估计 值 )。 对 于 y*, 现在 
可 以 获得 零 假设 为 真 的 模型 一 一 y Sac bx* 
cz+e, JKR, b*=0 ( 即 x 与 y 之 间 没 有 效应 
ZEB E MAL.) (Flachaire, 1999; Simonsohn et al., 
2020)。 为 了 生成 理论 /期 待 结果 的 分 布 ( 零 假设 情 
况 下 的 取样 分 布 ) 使 用 放 回 抽样 对 数据 集 的 行 
进行 抽取 (以 而 不 是 y 为 因 变量 )。 每 个 重新 抽 
样 的 样本 量 与 原样 本 相同 。 在 所 有 重新 抽样 过 程 
中 获得 的 5 的 分 布 用 来 评估 在 零 假设 情况 为 真 时 
观察 到 的 2 的 极限 性 。 具 体 步 又 是 (Simonsohn 
et al., 2020): 

中 估 计 观 测 数据 的 所 有 K 个 分 析 策 略 组 合 ， 
Ve, = Fg, XK iZk,) o 这 会 产生 K 个 不 同 的 估计 值 
b, (f=1…K)。 但 如 果 因 变量 在 不 同 的 分 析 策 略 中 
一 样 ， 对 于 多 个 或 所 有 分 析 策 略 组 合 来 讲 ，y。 可 
能 相等 。 | 

四 广 生 零 假设 情况 下 的 天 个 不 同 分 析 策 略 组 
SW ABH, y =y,-bxx, o BE y, BR EE 
的 数量 小 于 K， 也 会 存在 K 个 不 同 的 y， ， 因 为 b 
在 不 同 的 策略 组 合 下 是 不 一 样 的 。 所 以 现在 数据 
集中 每 一 行 有 x 的 值 和 KK 个 不 同 的 y 值 。 

@@ 有 放 回 地 在 矩阵 (步骤 @@ 中 形成 的 零 假设 


数据 集 ) 中 随机 抽取 N 行 (N 为 样本 量 ) (这 样 会 形 
成 一 个 相同 样本 的 新 数据 集 )， 并 且 在 所 有 天 个 规 
范 上 执行 。 

志 依 据 步 又 @@ 抽 取 的 数据 计算 这 天 个 分 析 策 
略 组 合 的 估计 值 ,形成 一 个 (估计 值 由 小 到 大 的 ) 
IT 

OH d 2p ROM®Z Vx fA] Tl 500 BK 1000 1X) 

@ 每 个 抽取 的 样本 都 有 个 估计 值 ， 一 种 分 
析 策 略 组 合 对 应 一 个 。 计 算 在 多 大 程度 上 , 重复 
抽样 的 分 析 策 略 组 合 形成 的 曲线 的 统计 指标 (如 
估计 值 中 位 数 ) 在 总 体 上 与 观测 到 的 真实 数据 存 
在 差异 。 

规范 曲线 分 析 提 供 了 3 个 统计 推断 指标 : (1) 
估计 值 的 中 位 数 (Median ,即将 估计 值 按 从 小 
到 大 排列 ， 并 选取 中 位 数 ; (2) 主 要 方向 上 的 显著 
的 结果 (the number of significant results in the 
predominant direction, NSRPD)， 即 多 种 分 析 策 略 
组 合 的 估计 值 中 , 统计 上 显著 的 佑 计 值 占 主导 地 
位 (显著 性 结果 的 数量 ) 的 方向 ( 正 向 或 负 向 ); (3) 每 
个 p 值 的 Z 分 数 转 换 的 均 分 (Simonsohn et al., 2015, 
2020)。 统 计 推 断 就 是 , 检验 估计 值 的 中 位 数 是 否 
不 同 于 所 有 分 析 组 合 估计 值 为 零 ( 零 假设 为 真 ) 的 
情况 ; 主要 方向 上 的 显著 结果 是 否 多 于 或 高 于 所 
有 规范 估计 值 为 零 假 设 的 情况 ; 不 同 于 第 二 种 检 
验 指标 , 第 三 个 指标 将 所 有 p [ETT ER, 然后 
平均 每 个 分 析 组 合 的 p 值 对 应 的 Z 分 数 ， 最 后 检 
验 平均 的 Z 分 数 是 否 不 同 于 所 有 组 合 在 零 假设 下 
的 情况 (Simonsohn et al., 2020)。 

总 的 来 说 ， 多 元 宇宙 样 分 析 三 步 法 已 获得 ] 
许多 研究 者 的 认可 。 目 前 研究 者 可 以 使 用 多 种 软 
件 进 行 多 元 宇宙 样 分 析 ， 例 如 Stata 软件 、Python 
和 R 软件 ,人 研究 者 开发 了 许多 R 软件 包 ， 如 specr 
(Masur & Scharkow, 2020), multiverse (Sarma, 2021), 
rdfanalysis (Gassen, 2021), multifear (Lonsdorf 
et al., 2022) 等 .对 于 Python 软件， 有 specification | 
curve (Turrell, 2021), Boba (Liu et al., 2021) 等 软件 
包 。 对 于 Stata 软件 A speccurve (Sievertsen & 
Kim, 2020) 以 及 分 析 网 站 (Young & Holsteen, 2017) 
等 。 实 例 中 依托 的 是 R 软件 包 specr. 

(4) 实 例 分 析 

为 进一步 理解 多 元 宇宙 样 分 析 , 我 们 以 探讨 
智能 手机 使 用 与 智能 手机 压力 之 间 的 关系 为 实例 
(以 下 简称 实例 )， 阐 释 多 元 宇宙 样 分 析 的 具体 操 
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作 。 本 实例 相关 的 代码 和 数据 可 从 网 址 
(https://osf.io/fc8he/) 获 取 。 需要 说 明 的 是 , 为 了 充 
SEAN TIVE EAE, SE ARETE SUS ay RES 
的 变量 操作 和 策略 分 析 组 合 ， 有些 变量 操作 (如 将 
连续 变量 人 为 划分 为 分 类 变量 ) 未 必 是 单数 据 集 
多 元 宇宙 样 分 析 的 合理 操作 ,但 在 多 数据 集 多 元 
宇宙 样 分 析 中 比较 常见 (例如 对 同一 变量 ， 有 的 数 
据 集 使 用 连续 变量 ， 有 的 则 用 分 类 变量 )。 因 此 ， 
本 文 的 实例 仅 作为 演示 方法 的 样 例 ， 不 作为 方法 
实际 应 用 的 规范 。 人 研究 者 应 从 实证 研究 中 学 习 多 
元 宇宙 样 分 析 在 不 同 应 用 情境 下 的 具体 操作 。 

步 又 一 : 在 本 实例 中 ,数据 集中 有 青少年 智 
能 手机 使 用 时 间 、 智 能 手机 压力 以 及 4 个 人 口 学 
变量 等 变量 (Huang et al., in press)。 表 1 中 展示 了 
研究 者 在 探讨 智能 手机 使 用 与 智能 手机 压力 关系 
时 可 能 的 分 析 策 略 。 本 实例 中 , 共产 生 了 768 个 
分 析 策 略 组 合 ( 见 表 1)。 

步骤 二 : 图 2 描述 了 不 同 分 析 策 略 下 智能 手 
机 使 用 对 智能 手机 压力 的 预测 效应 。768 个 策略 
(从 图 2 左边 到 右边 ) 的 总 体 预测 效应 在 0.026 到 
0.31 之 间 , 735 个 组 合 获得 了 显著 的 结果 , 33 个 组 
合 效应 不 显著 ， 这 说 明了 效应 随 分 析 策 略 不 同 而 
变化 。 例 如 ， 如 果 研 究 者 报告 第 5 个 分 析 策 略 的 
结果 ， 则 智能 手机 使 用 对 手机 压力 没有 显著 预测 
作用 (8= 0.003, p > 0.05); 如 果 研 究 者 报告 第 123 
个 分 析 策 略 的 结果 ， 则 智能 手机 使 用 对 手机 压力 
有 显著 预测 作用 ,但 是 效应 较 小 (8 = 0.11, p < 
0.05); 如 果 研 究 者 报告 第 719 个 分 析 策 略 的 结果 ， 
则 智能 手机 使 用 对 手机 压力 有 显著 且 较 大 的 预测 
效应 (B= 0.27, p < 0.001)。 此 外 ， 当 智能 手机 使 用 


表 1 


ps: 


的 评估 指标 为 休息 日 的 使 用 时 间 时 ， 预 测 效 应 更 
大 ， 而 指标 为 工作 日 使 用 时 间 时 ， 预 测 效应 更 小 。 
当 只 通过 受到 的 言语 攻击 来 衡量 手机 压力 时 ， 研 
究 者 会 得 到 较 小 的 预测 效应 。 

步骤 三 : 由 于 估计 值 中 位 数 和 主要 方向 上 的 
显著 结果 (NSRPD) 这 两 个 统计 推断 指标 简明 易 懂 
的 特点 (Simonsohn et al., 2020), 在 以 往 的 研究 中 
较为 常用 (如 Orben & Przybylski, 2019a, 2019b), 
本 实例 也 使 用 这 两 个 指标 。 实 例 为 非 实 验 数 据 ， 
使 用 bootstrap 进行 统计 推 上 新 ， 零 假设 为 智能 手机 
使 用 对 手机 压力 没有 影响 。 实 例 展 示 了 不 同 智能 
手机 使 用 与 智能 手机 压力 之 间 的 关系 的 统计 推断 
结果 ( 表 2)， 可 见 无 论 何 种 分 析 策 略 下 ,智能 手机 
使 用 对 手机 压力 的 作用 都 是 显著 且 稳 健 的 (Median 
f = 0.12 to 0.20, p < 0.001; NSRPD = 106/128 to 
128/128, p < 0.001). 

由 于 本 实例 仅仅 对 变量 进行 了 不 同 操纵 , 未 
来 研究 还 应 该 考虑 恰当 的 参数 估计 方法 (如 极 大 
似 然 或 贝 叶 斯 估计 )、 模 型 选择 指标 (如 BIC 或 
AIC)、 抽 样 算法 (如 bootstrap 或 马尔 科 夫 -蒙特 卡 
洛 ) 等 ,从 而 更 好 地 发 挥 多 元 宇宙 i 样 分 析 的 优势 。 


4 多 元 宇宙 样 分 析 的 应 用 


近年 来 ， 多 元 宇宙 样 分 析 越 来 越 受 到 研究 者 
的 关注 。 从 2015 年 到 2021 年 ， 以 多 元 宇宙 样 分 
析 为 主题 的 文章 从 9 篇 上 升 到 40 篇 (如 图 3)。 该 
方法 近年 来 在 许多 领域 内 得 到 应 用 ，Web of 
Science 的 检索 结果 表明 ， 以 多 元 宇宙 样 分 析 为 主 
题 或 应 用 该 类 方法 的 研究 分 布 在 行为 科学 领域 、 
心理 学 领域 、 神 经 科学 领域 、 精 神 病 学 领域 等 。 


探究 智能 手机 使 用 与 智能 手机 压力 关系 的 分 析 策略 


研究 问题 : 智能 手机 使 用 与 智能 手机 压力 的 关系 


研究 者 对 变量 的 决策 


策略 的 可 能 性 


m 智能 手机 使 用 m 作为 连续 变 


LEE 作为 分 类 变 


: 工作 日 使 用 时 间 、 休 息 日 使 用 时 间 、 工 作 日 和 休息 日 平均 使 用 时 间 
: 将 连续 变量 虚拟 编码 为 低 使 用 (<2 小 时 编码 为 0 和 高 使 用 (>2 小 时 编码 为 1)。 


e 智能 手机 压力 @ 不 同 测量 方式 : 


简 版 手机 压力 量 表 和 完整 版 手机 压力 量 表 


e 完整 版 中 不 同 的 维度 分 别 进行 替代 : 6 个 维度 (不 满意 的 信息 和 交流 、 未 满足 的 娱乐 动机 、 在 


线 学 习 负 担 、 社 会 关注 、 无 用 和 过 载 信息 、 


> 模型 选用 


« 控制 变 


> 线性 模型 


Ez 


€ 所 有 协 变 量 都 不 控制 


在 线 言语 攻击 ) 


争 4 个 协 变量 取 所 有 子 集 分 别 进行 控制 (如 年 龄 、 年 龄 + 性 别 、 性 别 + 居 住地 ) 


智能 手机 使 用 与 智能 手机 压力 之 间 的 关系 分 析 策 略 共 768 个 组 合 ， 即 768 个 宇宙 。( 智 能 手机 使 用 时 间 (6 种 ) x 智能 手机 


压力 (8 种 ) x 模型 选用 (1 种 ) x 控制 变量 (16 种 ) = 768 种 ) 
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分 析 策 略 组 合 (宇宙 ) 


图 2 ”多 元 宇宙 样 分 析 策 略 结果 描述 

注 : 图 2(A) 中 estimate 指 回归 系数 的 估计 值 ， 曲 线 上 点 的 纵 坐 标 表 示 不 同 策略 组 合 下 自 变 量 对 因 变 量 的 回归 系数 ， 阴 影 部 分 
表示 该 系数 的 置信 区 间 。 图 2(B) 右 侧 纵 坐标 controls 指控 制 变量 , y 指 因 变 量 ,x 指 自 变量 。 灰 色 表 示 不 显著 的 策略 组 合 ， 蓝 
色 表 示 显 著 的 策略 组 合 。 
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R2 多 元 宇宙 样 分 析 的 统计 推断 结果 4.1 “应 用 于 自我 报告 类 数据 
Nake Co 多 元 宇宙 样 分 析 三 泛 运用 于 横向 月 我 报告 数 
significant 


智能 手机 使 用 Median f significant and 
positive results 


andnegative —— 据 中 。 在 媒体 心理 学 领域 ,媒体 使 用 是 否 影响 青 
results 少年 心理 健康 一 直 是 备 受 争议 的 话题 。 研 究 者 为 


工作 日 使 用 时 间 — 012" 17128 0/128 了 探讨 智能 设备 使 用 与 心理 健康 和 主观 幸福 感 的 
休息 日 使 用 时 间 0.20” 128/128 0/128 关系 ,使 用 规范 曲线 分 析 进 行 了 大 量 研究 。Orben 
使 用 时 间 均 分 019" — 128/287 0128 和 Przybylski (2019a) 使 用 3 个 国家 的 大 型 数据 集 
工作 日 使 用 时 间 分 类 — 0177 106/128 0/128 探索 了 屏幕 时 间 (11 种 操作 : 回溯 性 自我 报告 、 时 
休息 日 使 用 时 间 分 类 ”0.15” 128/128 + 0/128 间 日 记 测 量 、 工 作 日 和 休息 日 使 用 等 ) 与 幸福 感 (3 
使 用 时 间 均 分 分 类 — 0.197 128/128" 0/128 种 操作 : 优势 与 困难 问卷 、 自 尊 问 卷 、 主 观 幸 福 


iE: ***p < 0.001, t = NSRPD。 本 研究 使 用 数据 从 原 研究 感 问卷 ) 的 关系 ， 并 对 控制 变量 进行 控制 (2 种 )。 最 
d (Huang et al., in press) 获 得 ， 且 得 到 使 用 允许 。 后 发 现 二 者 间 并 没有 实质 性 联系 ， 即 使 存在 微弱 
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40 et al., 2022; Cosme et al., 2020; Cosme & Lopez, 

一 35 上 2020; Voracek et al., 2019)。 例 如 ， 额 叶 a 波 不 对 

E: ll " 称 性 (Frontal alpha asymmetry, FAA) 是 否 是 抑郁 障 

E | e 碍 病人 脑 电 图 (EEG) 的 一 个 指标 仍然 存在 争议 ， 

KIS o o æ ? 为 了 回答 这 个 问题 并 检验 该 指标 的 有 效 性 ， 
5- Kolodziej 等 (2021) 对 5 个 独立 研究 的 脑 电 图 数据 
0 


2015 2016 2017 2018 2019 2020 2021 
年 份 
图 3 多 元 宇宙 样 分 析 在 Web of Science 数据 库 中 的 发 
文 量 (2015~2021) 
注 : 图 中 数据 来 源 于 Web of Science 检索 结果 。 检 索 关 键 
词 为 TS = (“Multiverse analysis”) OR TS = (“Vibration of 
effects”) OR TS = (“Multimodel analysis”) OR TS = 


(“Specification curve analysis"). 检索 日 期 范围 始 于 2015 4, 


截止 至 2021 年 12 月 31 日 。 


的 负 向 预测 关系 , 这 种 关系 也 不 稳健 。 所 以 他 们 
认为 以 往 关 于 屏幕 时 间 不 利于 心理 健康 的 说 法 是 
站 不 住 脚 的 。 此 外 ,他 们 的 另 一 项 使 用 规范 曲线 
分 析 的 研究 也 发 现 类 似 的 结果 ， 即 媒体 设备 的 使 
用 与 心理 健康 之 间 没 有 实质 性 的 联系 (Orben & 
Przybylski, 2019b)。Modecki 等 (2020) 使 用 多 元 宇 
罕 分析 探讨 父母 智能 手机 使 用 对 父母 教养 方式 的 
影响 发现 父母 使 用 智能 手机 对 其 教养 方式 的 影 
向 是 非常 小 的 ， 并 且 亲 子 间 不 受 技术 干扰 影响 时 ， 
更 多 智能 手机 使 用 与 更 高 质量 的 教养 方式 有 正 向 
关系 。 

近年 来 ， 多 元 宇宙 样 分 析 也 逐渐 运用 于 追踪 
研究 。 为 了 探讨 青年 失业 与 未 来 心理 健康 关系 的 
稳健 性 ，Wright 等 (2021) 对 2008 年 经 济 危 机 后 进 
人 劳工 市 场 的 青年 进行 第 一 次 测量 , 在 其 25 岁 时 
进行 第 二 次 测量 , 同时 对 若干 控制 变量 进行 操 
纵 。 在 12 万 个 分 析 策 略 中 ,他 们 发 现 青 年 失业 经 
历 会 导致 未 来 的 不 良心 理 健 康 状况 ， 这 种 长 时 效 
应 具有 稳健 性 (79.42% 的 模型 在 统计 上 具有 显著 
性 ,0.04% 的 模型 发 现 相反 的 预测 效应 )。 为 了 探讨 
口服 避孕 药 对 女性 青少年 未 来 抑郁 的 影响 ， 
Anderl 等 (2022) 使 用 规范 曲线 分 析 了 女性 青少年 
(16~19 岁 ) 自 我 报告 的 口服 避孕 药 使 用 情况 和 成 
年 早期 (20~25 岁 ) 自 我 报告 的 抑郁 情况 , 在 818 个 
分 析 策 略 中 ， 他 们 发 现 女 性 青少年 的 口服 避孕 药 
使 用 与 成 年 早期 的 抑郁 有 着 较 小 但 稳健 的 关系 。 
42 ”应 用 于 脑 成 像 与 混合 类 数据 

一 些 脑 科学 和 生物 学 相关 的 研究 也 正在 使 用 
多 元 宇宙 样 分 析 方 法 进行 稳健 性 检验 (Bloom 


集 ， 使 用 多 元 宇宙 分 析 对 统计 模型 、 信 和 号 空间 、 
协 变量 控制 等 进行 操作 ， 对 270 种 可 能 的 组 合 进 
行 稳健 性 分 析 ， 发 现 仅 有 13 种 组 合 呈现 显著 的 结 
TR, 因此 他 们 认为 FAA 与 抑郁 障碍 之 间 没 有 联 
系 ,在 功能 性 磁 共 振 成 像 (MRD 研 究 领 域 , 为 了 探 
讨 食 物 线索 反应 、 调 节 和 评估 的 神经 机 制 是 否 与 
身体 状况 (如 BMI 指数、 身体 肥胖 比例 ) 及 实际 饮 
食 行 为 有 关 ,， 研究 者 使 用 5 个 fMRI 数据 集 ， 对 脑 
区 激活 与 饮食 行为 间 的 关系 稳健 性 进行 检验 ， 规 
范 曲 线 分 析 结 果 表 明 ,， 食物 反应 线索 的 神经 机 制 
与 饮食 行为 指标 之 间 的 关系 是 可 靠 的 、 稳 健 的 
(Cosme & Lopez, 2020)。 

最 近 也 有 研究 者 将 多 元 宇宙 样 分 析 方法 应 用 
于 混合 类 数据 。 例 如 Móschl 等 (2021) 结 合 问卷 报 
告 、 生 理 指标 和 实验 任务 , 使 用 规范 曲线 分 析 研 
究 慢 性 压力 (多 种 自我 报告 测量 和 头发 皮质 醇 浓 
度 ) 与 执行 功能 (多 种 实验 任务 ) 的 关系 ,发 现 二 者 
的 关系 取决 于 不 同 的 分 析 策 略 一 一 大 部 分 分 析 策 
略 显示 零 效应 ， 仅 小 部 分 策略 发 现 二 者 间 是 正 向 
或 负 向 的 关系 。 
43 与 其 他 分 析 方 法 结合 

随 着 多 元 宇宙 样 分 析 方法 及 原理 的 扩展 ， 研 
究 者 开始 将 其 与 其 他 方法 进行 结合 。 较 为 突出 的 
儿 个 例子 是 将 其 应 用 于 探讨 中 介 效 应 或 变量 间作 
用 机 制 的 稳健 性 ,结合 网 络 分 析 方 法 探讨 核心 症 
状 的 稳定 性 ,以 及 结合 元 分 析 进 行 组 合 性 元 分 析 。 

中 介 效 应 分 析 在 社会 科学 各 个 学 科 中 得 到 广 
泛 的 应 用 (MacKinnon et al, 2007; iii 等 ， 
2005; 温 忠 锯 ， 叶 宝 娟 ，2014)， 特 别 是 在 探讨 因 
果 关 系 的 作用 机 制 时 ， 中 介 效 应 分 析 显 得 尤其 重 
要 (MacKinnon et al., 2007; Rijnhart, Lamp et al., 
2021)。 因 此 , 在 心理 科学 可 重复 性 危机 的 情况 下 ， 
中 介 效 应 的 稳健 性 值得 进一步 探讨 (Rijnhart， 
Twisk et al., 2021)。Rijnhart, Twisk 等 (2021) 将 多 
元 宇宙 样 分 析 方 法 扩展 到 中 介 效 应 分 析 中 ,他 们 
认为 研究 者 除了 以 往 提 到 的 可 操作 空间 外 ,还 可 
以 对 中 介 变 量 、 中 介 变 量 分 析 方法 、 确 定 中 介 效 


202303.09860v1 


yu 
L| 


chinaXiv 


ChinaXiv 合 作 期 刊 


第 2 期 黄 顺 森 等 : 多 元 宇宙 样 分 析 : 简介 及 应 用 203 


应 存在 的 标准 进行 操作 。 基 于 此 ,他 们 使 用 一 项 
追踪 数据 探讨 体重 改变 对 骨 矿 物质 的 影响 在 多 大 
程度 上 受到 身体 成 分 ( 体 脂 率 和 四 肢 肌 肉质 量 ) 的 
中 介 作用 。 在 108 种 间接 效应 、108 种 直接 效应 
和 36 种 总 体 效应 组 合 中 ,他 们 发 现 间接 效应 为 正 
向 中 介 机 制 ， 显 著 且 具有 稳健 性 ; 91.7% 的 直接 效 
应 不 显著 ; 66.7% 的 总 体 效 应 为 积极 预测 效应 ， 且 
55.6% 的 效应 显著 。 因 此 ,他 们 认为 体 脂 率 是 稳健 
的 中 介 机 制 。 

近年 来 ， 随 着 精神 疾病 网 络 理论 和 网 络 分 析 
方法 的 发 展 ， 寻 找 症 状 网 络 中 的 核心 症状 或 核心 
变量 有 助 于 精神 疾病 的 干预 和 治疗 , 但 是 该 领域 
也 同样 出 现 了 可 重复 性 危机 ， 网 络 指标 中 心性 的 
不 稳定 性 备 受 研 究 者 争论 (Bringmann et al., 2019; 
Dablander & Hinne, 2019; Rodebaugh et al., 2018)。 
Black 等 (2021) 对 青少年 内 化 问题 症状 和 幸福 感 症 
状 的 动态 网 络 进行 分 析 ， 并 根据 网 络 中 心性 指标 
确定 网 络 的 核心 症状 。 同 时 , 为 了 减少 网 络 构建 
过 程 中 症状 的 选择 性 操作 , 研究 者 (通过 操作 症 
状 、 使 用 不 同 估计 方法 ) 构 建 了 32 个 不 同 的 网 络 ， 
以 确定 不 同 网 络 下 中 心性 指标 的 稳定 性 。 结 果 发 
Oh, 思维 清晰 、 不 高 兴 、 应 对 压力 和 担忧 的 中 介 
性 具有 跨 不 同 分 析 策 略 的 稳定 性 ， 表明 这 些 指 标 
在 青少年 心理 健康 发 展 过 程 中 的 重要 作用 。 

元 分 析 领 域 的 研究 有 时 也 受到 批评 , 例如 纳 
入 分 析 研 究 的 标准 ,使 用 什么 估计 模型 等 等 。 为 
Jt. 研究 者 提出 采纳 、 修 改 多 元 宇宙 样 分 析 的 方 
法 , 将 其 框架 使 用 在 元 分 析 中 一 一 即 组 合 性 元 分 
析 (combinatorial meta-analysis) (Olsson-collentine 
et al., 2021; Voracek et al., 2019)， 用 于 解决 有 冲突 
的 元 分 析 结 果 、 有 争议 的 证 据 。Voracek 等 (2019) 
使 用 了 组 合 性 元 分 析 探 讨 了 指 长 比 与 墨 丸 激 素 敏 
感性 的 关系 。 通 过 操作 元 分 析 的 分 析 方 法 (效应 量 
指标 选择 、 元 分 析 估 计 模 型 ) 和 纳入 的 研究 的 特征 
(性 别 、 年 龄 群体 、 群 体 状态 、 种 族 、 指 长 比 的 测 
量 方式 、 研 究 的 发 表 状 态 )， 形 成 了 1592 个 不 同 元 
分 析 的 策略 组 合 。 最 后 组 合 性 元 分 析 结 果 表 明 ， 
指 长 比 与 浴 丸 激素 在 很 大 程度 上 不 存在 关联 。 
44 ”应 用 研究 小 结 

总 的 来 说 , 不 同 研究 在 策略 组 合 选择 上 有 不 
同 偏向 , 例如 有 些 研究 较为 侧重 测量 方式 的 选择 ， 
有 些 研究 更 加 重视 不 同 模型 的 选择 。 这 意味 着 进 
行 多 元 宇宙 样 分 析 时 ,应 当 特 别 考虑 这 种 情况 (如 


对 测量 方式 争议 的 考虑 、 对 估计 模型 争议 的 考虑 
等 ) 这 有 助 于 研究 者 确定 具体 分 析 策 略 。 但 对 不 
同 测量 方式 争议 的 检验 , 这 依赖 于 现 有 数据 集 是 
否 支 持 ( 比 如 数据 集 的 确 使 用 了 不 同 测量 方式 )。 此 
外 , 在 与 其 他 方法 进行 融合 的 时 候 ， 也 是 聚焦 原 
有 方法 不 足 之 处 ( 原 有 方法 仍然 产生 争议 性 话题 
和 不 可 重复 性 问题 )。 但 是 , 通过 与 其 他 方法 的 结 
fr. 不 仅 促进 原 方 法 存在 问题 的 解决 ， 也 将 有 利 
于 心理 科学 领域 中 研究 方法 的 创新 和 发 展 。 


5 多 元 宇宙 样 分 析 的 优势 与 不 足 


多 元 宇宙 样 分 析 方法 可 以 减少 研究 者 的 选择 
性 分 析 与 报告 ， 增 加 研究 的 透明 度 ， 揭 示 效 应 的 
稳健 性 ,在 一 定 程度 上 可 以 缓解 由 选择 性 分 析 、 
选择 性 报告 带 来 的 可 重复 性 危机 。 此 外 ,揭示 所 
有 的 效应 、 包 容 小 效应 、 寻 求 稳健 的 效应 有 利于 
修正 现 有 理论 ,促进 理论 的 发 展 ， 并 进一步 促进 
人 研究 结果 在 临床 中 的 应 用 (Lonsdorf et al., 2022; 
Prentice & Miller, 1992; Voracek et al., 2019). 

ZU FE 4r n] LASER & Ph HE SERI RR 
测量 方法 。 例 如 Kolodziej 等 (2021) Cosme 和 
Lopez (2020) 旱 括 了 多 个 数据 集 进行 多 元 宇宙 样 
分 析 ， 这 种 分 析 有 利于 解决 因 取 样 偏差 或 地 区 / 文 
化 差异 导致 的 争议 问题 ,并 提高 结果 的 可 靠 性 。 
另外 , 心理 学 研究 测量 方式 很 大 程度 上 依赖 于 自 
我 报告 ， 这 种 方式 受到 一 些 研 究 者 的 质疑 ， 而 多 
元 宇宙 样 分 析 可 以 纳入 多 种 测量 方式 并 报告 所 有 
的 结果 ， 再 检验 结果 的 可 靠 性 。 例 如 Méschl 等 
(2021) 使 用 多 种 自我 报告 问卷 和 头发 皮质 醇 浓度 
指标 反映 个 体 的 慢性 压力 水 平 , Orben 和 Przybylski 
(2019a) 使 用 自我 报告 和 回溯 法 评估 个 体 数字 媒体 
设备 的 使 用 情况 。 总 之 ， 多 元 宇宙 样 分 析 能 够 考 
虑 多 样 化 的 变异 (如 群体 差异 、 测 量 差异 、 模 型 估 
计 方 法 差异 等 ), 并 给 出 稳健 性 的 结果 。 

如 上 所 述 , 结合 多 元 宇宙 样 分 析 的 应 用 研究 
可 以 发 现 , 该 方法 有 利于 回答 争议 性 的 问题 ， 即 
某 两 个 变量 之 间 的 效应 究 竞 怎样 ? 在 这 一 点 上 
多 元 宇宙 样 分 析 与 元 分 析 类 似 ， 能 将 多 种 结果 放 
在 一 起 检验 效应 的 稳健 性 。 虽 然 元 分 析 也 可 以 解 
决 许多 有 争议 性 的 问题 , 但 是 ， 多 元 宇宙 样 分析 
与 元 分 析 并 非 对 立 。 不 少 研究 者 采用 全 世界 研究 
者 在 不 同时 间 地 域 采 和 集 的 不 同样 本 ,进行 多 元 宇 
宙 样 分 析 ( 如 Orben & Przybylski, 2019a)， 这 样 的 
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分 析 策 略 兼 有 元 分 析 样 本 多 样 性 强 和 多 元 宇宙 样 
分 析 主 观 偏 差 少 的 优势 ， 这 也 启发 研究 者 将 该 多 
元 宇宙 样 分 析 的 灵活 性 应 用 到 元 分 析 中 (如 


作为 检验 稳健 性 的 一 个 指标 ， 但 是 有 研究 者 认为 
这 种 指标 不 一 定 能 很 好 地 代表 统计 结果 (Rijnhart， 
Twisk et al., 2021; Young & Holsteen, 2017)， 所 以 


Voracek et al., 2019)。 另 外 ， 需 要 注意 的 是 ， 多 元 
宇宙 样 分 析 还 可 以 被 用 于 实证 研究 积累 尚 不 充 
足 、 难 以 开展 元 分 析 的 新 兴 研 究 领 域 ， 具备 元 分 
析 所 不 具有 的 独特 价值 (例如 ， 有 研究 者 将 规范 曲 
线 分 析 用 于 单个 参与 者 的 元 分 析 (individual 
participant meta-analysis; Ballou & Zendle, 2022)。 

多 元 宇宙 样 分 析 也 有 其 局 限 性 。 第 一 ， 这 种 
分 析 方法 非常 耗 时 (Liu et al., 2020), 特别 是 分 析 
策略 增加 ,样本 量 增 大 ， 且 进行 统计 推断 时 。 研究 
者 认为 提高 分 析 过 程 的 自动 化 程度 可 以 减少 分 析 
策略 ,例如 使 用 Young 和 Holsteen (2017) 提 供 的 
Stata 分 析 模 块 。 此 外 , 研究 者 还 可 以 减少 样本 量 
(例如 对 大 样本 中 随机 抽取 出 的 小 样本 进行 分 析 ) 
来 减少 运算 时 间 (Rijnhart，Twisk et al., 2021)。 第 
二 ,在 进行 不 同 策略 组 合 的 时 候 ， 默认 所 有 分 析 
策略 都 有 同样 的 统计 推断 权重 ， 且 所 有 的 策略 组 
合 在 理论 上 都 是 合理 的 、 统 计 上 是 有 效 且 非 元 余 
的 。 昌 然 理 论 上 可 以 通过 计算 加 权 后 的 统计 推断 
指标 (如 加 权 后 的 中 位 数 ), 但 是 研究 者 仍 难以 确 
定 哪 种 分 析 策 略 更 优 ， 应 给 予 哪 种 策略 更 多 的 权 
重 (Simonsohn et al., 2020)。 第 三 , 虽然 多 元 宇宙 
样 分 析 大 幅 扩展 了 分 析 策 略 的 范围 ， 对 选择 性 分 
析 与 报告 进行 了 限制 , 但 该 方法 本 质 上 还 是 研究 
者 的 主观 操作 。 例 如 , 研究 者 可 能 由 于 某 些 原因 
(例如 样本 量 太 大 而 难以 分 析 、 研 究 者 认为 某 些 分 
析 策 略 是 无 效 的 ) 不 会 进行 所 有 有 效 的 分 析 
(Rijnhart, Twisk et al., 2021; Simonsohn et al., 2020; 
Steegen et al., 2016)。 男 外 ,这 也 可 能 引发 研究 操 
作 的 “真正 任意 性 ”(truly arbitrary) 问 题 ， 例 如 研 
究 者 提出 的 不 确定 性 策略 组 合 ( 比 如 两 个 测量 概 
念 上 是 相似 的 , 但 是 没有 实证 证 据 表 明 测 量 的 有 
效 性 , 或 者 潜在 的 控制 变量 对 感 兴趣 效应 量 的 影 
响 没 有 实证 证 据 )， 这 种 真正 任意 性 问题 也 容易 产 
生 偏差 ,夸大 所 有 可 能 的 策略 组 合 , 减弱 有 意义 
的 效应 (Del Giudice & Gangestad, 2021; Masur, 
2021)。 针 对 这 种 情况 ， 有 研究 者 提出 了 多 元 宇宙 
样 分 析 的 分 析 策 略 操作 框架 供 研究 者 参考 (Del 
Giudice & Gangestad, 2021)。 第 四 ， 多 元 宇宙 样 分 
析 中 效应 分 布 统计 推断 指标 的 可 靠 性 仍 存在 争 
议 。 例 如 , 许多 研究 把 效应 分 布 的 中 位 数 或 均值 


需要 结合 多 种 指标 (例如 主要 方向 上 的 显著 结果 、 
p 值 的 Z 分 数 ) 进 行 分 析 (Simonsohn et al., 2020). 
第 五 ， 多 元 宇宙 样 分 析 主 张 报告 所 有 可 能 策略 组 
合 的 结果 (Simonsohn et al., 2020), 但 实际 上 和 较 难 
实现 。 研 究 者 在 使 用 该 方法 时 ， 常常 基于 已 有 的 
数据 集 ， 对 已 有 数据 集 实施 所 有 可 能 的 分 析 策 略 
并 报告 其 结果 是 可 行 的 。 这 提示 建立 客观 有 效 的 
数据 集 的 重要 性 ， 即 在 数据 收集 之 前 ， 就 应 该 从 
已 有 文献 、 经 验 或 理论 出 发 , 确定 相应 的 指标 和 
潜在 的 分 析 方 法 ， 并 落实 预 注册 从 而 减少 其 中 的 
可 操作 空间 。 此 外 ,主张 报告 所 有 分 析 策 略 ， 也 存 
在 过 分 依赖 数据 驱动 研究 取向 的 问题 。 但 是 理论 
驱动 和 数据 驱动 的 冲突 不 是 拒绝 多 元 宇宙 样 分 析 
的 理由 ， 研 究 者 应 该 在 讨论 分 析 结 果 时 充分 发 挥 
理论 的 作用 ,注意 辨析 为 什么 不 同 策略 有 不 同 的 
结果 , 为 什么 有 些 策略 产生 相同 的 统计 推断 而 有 
些 产 生 不 同 的 统计 推断 ， 这 或 许 更 有 助 于 我 们 真 
正 理 解 研究 问题 。 


6 小 结 与 展望 


多 元 宇宙 样 分 析 有 着 独特 的 优势 ,也 存在 一 
些 不 足 。 但 该 方法 未 来 在 以 下 几 个 方面 有 待 进 一 

第 一 ,应 用 研究 应 尽快 落实 统计 推断 步 又 ， 
最 大 化 发 挥 多 元 宇宙 样 分 析 的 作用 。 大 部 分 应 用 
该 方法 的 研究 在 确定 研究 结果 的 稳健 性 时 仍 停留 
在 描述 统计 (统计 显著 结果 的 占 比 ) 水 平 上 (如 
Black et al., 2021; Patel et al., 2015; Rijnhart, Twisk 
et al., 2021; Steegen et al., 2016; Wright et al., 2021; 
Young & Holsteen, 2017)， 有 时 难以 确定 效应 的 真 
实情 况 。 例 如 当 显 著 的 效应 和 不 显著 的 效应 各 占 
比 50%, 或 者 正 向 或 负 向 的 效应 各 占 50%}, DE 
究 者 难以 从 描述 统计 确定 应 该 相信 哪 种 情况 ， 所 
以 应 该 进一步 实施 统计 推 上 新 。 此 外 ， 该 方法 可 以 
额 括 多 种 变异 (测量 、 和 群体 、 模 型 估计 方法 等 ), 但 
是 大 部 分 应 用 研究 通常 只 发 挥 其 某 一 方面 的 作用 ， 
比如 使 用 多 种 测量 (行为 实验 、 生 物 指标 、 自 我 报 
告 等 ) 解 决 不 同 测 量 方式 存在 差异 的 问题 (如 
Móschl et al., 2021)， 和 使 用 不 同 群体 解决 不 同 群 
体 差 异 的 问题 (如 Cosme & Lopez, 2020; Orben & 
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Przybylski, 2019a)。 未 来 应 用 研究 应 该 尝试 省 括 多 
种 变异 ， 以 充分 发 挥 该 方法 的 作用 ,揭示 效应 结 
果 的 可 靠 性 。 

第 二 , 不 断 深化 与 其 他 研究 方法 的 融合 。 尽 


2020)。 所 以 应 当 结 合 前 人 提出 的 其 他 方式 (例如 预 
注册 ), 共同 增加 心理 学 研究 结果 的 透明 度 和 可 靠 
性 。 例 如 ,心理 学 研究 中 不 乏 将 连续 变量 作为 分 
类 变量 处 理 的 情况 (如 实例 中 的 智能 手机 使 用 )， 


管 现 有 研究 将 其 与 中 介 效 应 分 析 、 网 络 分 析 和 元 
分 析 进 行 融合 ,但 这 些 融合 的 方式 仍 存在 主观 选 
择 性 问题 。 例 如 在 网 络 分 析 中 ， 对 于 纳入 分 析 的 
节点 nodes) 仍 然 是 主观 选择 的 (Black et al., 
2021)。 这 意味 着 在 与 其 他 方法 融合 时 ， 也 要 有 相 
对 统一 的 、 适 用 于 不 同方 法 的 策略 选择 标准 ， 如 
适用 于 中 介 效 应 分 析 或 元 分 析 的 纳入 标准 等 。 同 
时 , 也 要 尽 可 能 在 融合 其 他 方法 时 实施 统计 推断 ， 
以 保证 结果 更 加 可 靠 。 此 外 ,未 来 研究 可 以 考虑 
将 其 与 更 多 的 其 他 方法 融合 (比如 运用 到 结构 方 
程 模型 中 ), 促进 心理 科学 领域 研究 方法 的 创新 。 


但 可 能 存在 “真正 随意 性 ”的 问题 (比如 ， 量 表 的 选 
择 是 否 合理 、 分 析 模 型 是 否 恰当 等 )。 因 此 研究 者 
可 以 考虑 在 预 注 册 中 就 确定 这 一 系列 指标 ， 从 而 
在 数据 分 析 前 减少 此 类 可 疑 操作 。 此 外 ,还 有 研 
究 者 倡导 将 多 元 宇宙 样 分 析 方法 运用 于 数据 收集 
过 程 中 ， 以 此 来 减少 主观 操作 (Harder, 2020). 
第 五 ， 理 性 看 待 不 同 分 析 策 略 组 合 的 不 同 结 
果 。 多 元 宇宙 样 分 析 的 优势 便 是 告诉 研究 者 所 有 
可 能 的 结果 ,那么 要 如 何 看 待 不 显著 或 非 主要 方 
向 上 显著 的 结果 呢 ? 是 否 把 他 们 当 作 微不足道 的 
“误差 ”并 加 以 忽视 ?无 论 是 心理 科学 研究 的 可 重 


第 三 ,第 选 可 靠 的 统计 推断 指标 ， 融合 不 同 
参数 估计 和 模型 选择 方法 ， 并 完善 分 析 软 件 。 许 
多 多 元 宇宙 样 分 析 的 方法 (如 多 模型 分 析 ， I 
动 分 析 ) 并 没有 涉及 统计 推断 步 又， 这 就 使 得 现 有 
的 统计 推断 指标 非常 少 。 未 来 研究 应 该 要 考虑 对 
更 多 的 指标 (例如 平均 值 ) 进 行 统计 推断 ,。 但是， 有 
时 多 种 指标 的 结果 是 互相 矛盾 的 (例如 Simonsohn 
等 (2020) 中 的 案例 2)， 这 增加 了 研究 结果 的 解释 
难度 ， 所 以 未 来 研究 可 通过 模拟 研究 筛选 出 灵敏 
性 和 代表 性 更 高 的 指标 。 同 时 ,在 进行 分 析 策 略 
的 选择 时 ， 也 可 以 进一步 考虑 不 同 策略 在 不 同 的 
参数 估计 方法 、 不 同 抽样 算法 下 的 情况 ,并 考虑 
合适 的 模型 选择 指标 。 这 有 利于 丰富 多 元 宇宙 样 
分 析 的 策略 多 样 性 并 提升 结果 的 稳健 性 。 另 外 ， 
许多 分 析 软 件 的 软件 包 ( 例 如 multiverse, rfdanalysis, 
specr, specification_curve) 并 没有 涉及 到 统计 推断 ， 
大 多 停留 在 对 所 有 组 合 进行 描述 统计 的 范围 内 ， 
这 使 得 研究 者 难以 完成 第 三 个 步 又， 所 以 未 来 的 
研究 需要 完善 该 方法 的 分 析 软 件 或 分 析 包 。 同 时 ， 
不 同 的 分 析 软 件 (或 软件 包 ) 报 告 的 结果 是 否 存 在 
差异 也 值得 探讨 ， 这 对 提升 结果 的 稳健 性 和 可 重 
复 性 同样 具有 重要 意义 。 

第 四 ,结合 多 种 渠道 , 共同 致力 于 解决 可 重 
复 性 危机 。 可 疑 研究 操作 可 能 从 研究 者 设计 实验 
时 就 开始 了 ,因而 多 元 宇宙 样 分 析 无 法 解决 分 析 
策略 前 端的 可 疑 操 作 。 另 外 该 方法 无 法 完全 消除 
主观 偏差 的 影响 ,因为 研究 者 在 进行 分 析 策 略 组 
合 时 ， 仍 然 具 有 可 选择 性 (Simonsohn et al., 


复 性 还 是 多 元 宇宙 i 样 分 析 ， 其 实 都 很 想 强 调 一 个 
假设 一 一 人 类 的 心理 与 行为 之 间 存 在 简单 的 标准 
化 规律 (例如 ， 手 机 使 用 程度 与 心理 健康 水 平 应 存 
在 唯一 准确 的 对 应 关系 、 或 研究 者 可 以 通过 平均 
值 代表 总 体 )。 但 是 人 类 行为 可 能 并 不 会 这 么 简单 ， 
其 受 诸多 因素 的 影响 (例如 ， 基因 、 个 体 发 展 、 群 
体 、 环 境 、 文 化 等 ), 正如 研究 者 争论 道 “ 研 究 者 通 
过 样本 刻画 总 体 ， 虽 然 能 够 告诉 许多 关于 总 体 的 
信息 , 但 是 还 有 许多 东西 没有 解释 (被 认为 是 误 
差 )…… 社 会 科学 中 的 这 个 误差 是 一 个 真实 性 的 、 
理解 性 的 误差 .是 知识 上 的 缺陷 ”( 谢 宇 ，2006)。 
因而 , 许多 研究 者 反对 追求 这 种 简单 的 “标准 化 
规律 ” 进而 发 展 出 非 标准 化 理论 。 这 提示 研究 者 
在 使 用 多 元 宇宙 样 分 析 时 应 正确 看 待 不 同 分 析 策 
略 组 合 的 不 同 结果 ,理解 不 显著 或 非 主 要 方向 上 
显著 的 结果 的 存在 意义 ， 并 谨慎 下 结论 。 
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Multiverse-style analysis: Introduction and application 


HUANG Shunsen, CHEN Haojie, LAI Xiaoxiong, DAI Xinran, WANG Yun 
(State Key Laboratory of Cognitive Neuroscience and Learning, Beijing Normal University, Beijing 100875, China) 


Abstract: Selective analysis and selective report are one of the main triggers of the replicability crisis in 
psychological science. In recent years, researchers have proposed a new method—multiverse-style analysis, 
which includes multiple data analytic decisions to reduce the subjective selectiveness and arbitrariness and 
performs robustness to increase the reliability of results. This manuscript introduces the multiverse-style 
analysis and related steps by using the example of exploring the relationship between smartphone use and 
smartphone stress. The multiverse-style analysis method has been applied in fields such as psychology and 
cognitive neuroscience. Future research should continue to develop and improve the statistic inference of 
multiverse-style analysis, so that it can be applied to more sorts of data and broader research fields. 
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